強化學習筆記 Day9

2019 iT 邦幫忙鐵人賽

DAY 9

AI & Data

強化學習系列第 9 篇

2019鐵人賽

dbgchamp

2018-10-18 16:07:51

3295 瀏覽

分享至

前言

昨天我們用迭代的方式，實作計算狀態價值這件事，並在最後留下兩個問題：

如果 gamma 更大或更小，結果會有什麼改變？
目前是隨機動作，是否有決定動作的方法呢？

針對第一個問題，可以自行改寫參數中的 gamma 測試。或是簡單看一下狀態價值的定義，就可以猜到可能會發生的是了。假設，則。

接著，我們討論決定動作的方法。

策略增進 (Policy Improvement)

我們之前一直著重在狀態價值，現在我們需要使用動作價值了，先來回顧一下定義：

在計算完狀態價值後，我們可以使用「狀態價值」與「動作價值函數」，計算在每個狀態下，每個動作的動作價值。那麼要處理的問題，就變成是要怎麼分配每個動作產生的機率呢？

貪婪法 (greedy method)

作者在這裡導入貪婪法，也就是說，我們只選擇在這個狀態下，最好的動作，產生其他動作機率為 0 。為了方便，我們將使用貪婪法的這個策略記作。並將透過貪婪法決定的動作記為

既然我們現在有更好的動作了，那是不是可以再回去更新狀態價值，如此一來，我們對狀態價值的判斷，就會比原本隨機動作的情況更準確。

總結來說，我們目前有「計算狀態價值的方法」、「計算最佳動作的方法」，明天我們要把這兩個東西組合起來，完成策略迭代的整體過程。

強化學習筆記 Day8

強化學習筆記 Day10

系列文

強化學習共 30 篇

RSS系列文訂閱系列文

38 人訂閱

完整目錄

直播研討會

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22200 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙

強化學習系列 第 9 篇